504 research outputs found

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    Invariance and Same-Equivariance Measures for Convolutional Neural Networks

    Get PDF
    Our main objective in this thesis is to contribute to the understanding and improvement of equivariance in neural network models. In terms of applications, we focus on handshape classification for sign language and other types of gestures using convolutional networks. Therefore, we set the following specific goals: • Analyze CNN models design specifically for equivariance • Compare specific models and data augmentation as means to obtain equivariance. Evaluate transfer learning strategies to obtain equivariant models starting with non-equivariant ones. • Develop equivariance measures for activations or inner representations in Neural Networks. Implement those measures in an open source library. Analyze the measures behavior, and compare with existing measures.Facultad de Informátic

    A novel competitive neural classifier for gesture recognition with small training sets

    Get PDF
    Gesture recognition is a major area of interest in human-computer interaction. Recent advances in sensor technology and Computer power has allowed us to perform real-time joint tracking with com-modity hardware, but robust, adaptable, user-independent usable hand gesture classification remains an open problem. Since it is desirable that users can record their own gestures to expand their gesture vocabulary, a method that performs well on small training sets is required. We propose a novel competitive neural classifier (CNC) that recognizes arabic numbers hand gestures with a 98% success rate, even when trained with a small sample set (3 gestures per class). The approach uses the direction of movement between gesture sampling points as features and is time, scale and translation invariant. By using a technique borrowed from ob-ject and speaker recognition methods, it is also starting-point invariant, a new property we define for closed gestures. We found its performance to be on par with standard classifiers for temporal pattern recognition.XIV Workshop Agentes y Sistemas Inteligentes.Red de Universidades con Carreras en Informática (RedUNCI

    A novel competitive neural classifier for gesture recognition with small training sets

    Get PDF
    Gesture recognition is a major area of interest in human-computer interaction. Recent advances in sensor technology and Computer power has allowed us to perform real-time joint tracking with com-modity hardware, but robust, adaptable, user-independent usable hand gesture classification remains an open problem. Since it is desirable that users can record their own gestures to expand their gesture vocabulary, a method that performs well on small training sets is required. We propose a novel competitive neural classifier (CNC) that recognizes arabic numbers hand gestures with a 98% success rate, even when trained with a small sample set (3 gestures per class). The approach uses the direction of movement between gesture sampling points as features and is time, scale and translation invariant. By using a technique borrowed from ob-ject and speaker recognition methods, it is also starting-point invariant, a new property we define for closed gestures. We found its performance to be on par with standard classifiers for temporal pattern recognition.XIV Workshop Agentes y Sistemas Inteligentes.Red de Universidades con Carreras en Informática (RedUNCI

    Variabilidad del índice de caída y gluten en una colección internacional de genotipos de trigo

    Get PDF
    El trigo pan (Triticum aestivum L.), es uno de los cereales más versátiles debido a que se encuentra en distintos alimentos como pan de caja, galletas, pastas, etc. aportando hidratos de carbono, nutrientes responsables de brindar energía al organismo tanto para vivir, como para alimentar al cerebro, músculos y realizar nuestras actividades diarias. Argentina, se posiciona como una gran consumidora a nivel mundial del principal producto elaborado del cereal: la harina. Más allá de las dietas de moda, que recomiendan reducir al máximo su ingesta, su consumo per cápita llega a los 78 kilos anuales. La calidad se puede definir como la aptitud para cumplir un fin en la forma más natural, sencilla y económica posible. Esto hace que la calidad sea un proceso dinámico y como tal evoluciona constantemente como consecuencia de las nuevas exigencias, aplicaciones y disponibilidades. Con respecto a la evaluación de la calidad, la industria es exigente en las características de las harinas que deben ser usadas para la obtención de determinados productos, ya que de ellas depende la calidad final y la mayor aceptación por parte del consumidor. La calidad panadera considera a la concentración y composición de las proteínas insolubles (gliadinas/gluteninas) que en conjunto se denominan gluten. Estas proteínas interactúan en presencia de agua para formar la parte insoluble de la harina que proporciona a las masas mayor o menor fuerza y elasticidad, características altamente deseables en el proceso de elaboración del pan. Las variedades de trigo que tienen un gluten fuerte producen una masa capaz de absorber grandes cantidades de agua y producir un pan de gran volumen y buena consistencia. Por el contrario, variedades que presentan un grano blando producen una harina muy fina, apropiada para la utilización en pasteles y galletas. Otro aspecto a tener en cuenta es el grado de degradación del almidón al momento de la cosecha. Este fenómeno está relacionado con la actividad de la enzima alfa amilasa que depende básicamente del comienzo de la germinación. Una manera indirecta de medir la actividad de la alfa amilasa, en una muestra de trigo recepcionada por un molino, es mediante el test denominado Falling Number. El objetivo de este trabajo es contribuir al mejoramiento de trigo identificando genotipos con buen contenido de gluten e índices de caída óptimos en una colección de 102 genotipos de trigo internacionales sembrados en Argentina. El ensayo se llevó a cabo en la Estación Experimental Julio Hirschhorn de la Facultad de Ciencias Agrarias y Forestales de la Universidad Nacional de La Plata (EEJH-FCAyF-UNLP). Las diferencias en las variables contenido de gluten e índice de caída entre los genotipos se analizaron mediante análisis de varianza (ANAVA) con el programa estadístico GenStat 12 Ed. y las medias se compararon mediante test LSD (P<0,05). El valor medio de gluten húmedo fue 25,7% mientras que el de gluten seco dio un valor medio de 9,44%. El valor medio de Falling Number fue 356,3. Los genotipos destacados en contenido de gluten fueron Triticum aestivum L. var murinumcompactoides de Chipre (39,97%), Triticum aestivum L. var ferrugineum de Canadá (39,71%), y Triticum aestivum L. var aestivum de Italia (37,87%). Con respecto al índice de caída, los valores hallados no demuestran presencia de grano brotado y son valores aptos para lograr buenos productos panificados.Facultad de Ciencias Agrarias y Forestale

    Variabilidad del índice de caída y gluten en una colección internacional de genotipos de trigo

    Get PDF
    El trigo pan (Triticum aestivum L.), es uno de los cereales más versátiles debido a que se encuentra en distintos alimentos como pan de caja, galletas, pastas, etc. aportando hidratos de carbono, nutrientes responsables de brindar energía al organismo tanto para vivir, como para alimentar al cerebro, músculos y realizar nuestras actividades diarias. Argentina, se posiciona como una gran consumidora a nivel mundial del principal producto elaborado del cereal: la harina. Más allá de las dietas de moda, que recomiendan reducir al máximo su ingesta, su consumo per cápita llega a los 78 kilos anuales. La calidad se puede definir como la aptitud para cumplir un fin en la forma más natural, sencilla y económica posible. Esto hace que la calidad sea un proceso dinámico y como tal evoluciona constantemente como consecuencia de las nuevas exigencias, aplicaciones y disponibilidades. Con respecto a la evaluación de la calidad, la industria es exigente en las características de las harinas que deben ser usadas para la obtención de determinados productos, ya que de ellas depende la calidad final y la mayor aceptación por parte del consumidor. La calidad panadera considera a la concentración y composición de las proteínas insolubles (gliadinas/gluteninas) que en conjunto se denominan gluten. Estas proteínas interactúan en presencia de agua para formar la parte insoluble de la harina que proporciona a las masas mayor o menor fuerza y elasticidad, características altamente deseables en el proceso de elaboración del pan. Las variedades de trigo que tienen un gluten fuerte producen una masa capaz de absorber grandes cantidades de agua y producir un pan de gran volumen y buena consistencia. Por el contrario, variedades que presentan un grano blando producen una harina muy fina, apropiada para la utilización en pasteles y galletas. Otro aspecto a tener en cuenta es el grado de degradación del almidón al momento de la cosecha. Este fenómeno está relacionado con la actividad de la enzima alfa amilasa que depende básicamente del comienzo de la germinación. Una manera indirecta de medir la actividad de la alfa amilasa, en una muestra de trigo recepcionada por un molino, es mediante el test denominado Falling Number. El objetivo de este trabajo es contribuir al mejoramiento de trigo identificando genotipos con buen contenido de gluten e índices de caída óptimos en una colección de 102 genotipos de trigo internacionales sembrados en Argentina. El ensayo se llevó a cabo en la Estación Experimental Julio Hirschhorn de la Facultad de Ciencias Agrarias y Forestales de la Universidad Nacional de La Plata (EEJH-FCAyF-UNLP). Las diferencias en las variables contenido de gluten e índice de caída entre los genotipos se analizaron mediante análisis de varianza (ANAVA) con el programa estadístico GenStat 12 Ed. y las medias se compararon mediante test LSD (P<0,05). El valor medio de gluten húmedo fue 25,7% mientras que el de gluten seco dio un valor medio de 9,44%. El valor medio de Falling Number fue 356,3. Los genotipos destacados en contenido de gluten fueron Triticum aestivum L. var murinumcompactoides de Chipre (39,97%), Triticum aestivum L. var ferrugineum de Canadá (39,71%), y Triticum aestivum L. var aestivum de Italia (37,87%). Con respecto al índice de caída, los valores hallados no demuestran presencia de grano brotado y son valores aptos para lograr buenos productos panificados.Facultad de Ciencias Agrarias y Forestale

    Reconocimiento de gestos dinámicos

    Get PDF
    El objetivo de esta tesina es estudiar, desarrollar, analizar y comparar distintas técnicas de aprendizaje automático aplicables al reconocimiento automático de gestos dinámicos. Para ello, se definió un modelo de gestos a reconocer, se generó una base de datos de prueba con gestos llamadas LNHG, y se estudiaron e implementaron clasificadores basados en máquinas de vectores de soporte (SVM), redes neuronales feedfoward (FF) y redes neuronales competitivas (CPN), utilizando representaciones locales y globales para caracterizar los gestos. Además, se propone un nuevo modelo de reconocimiento de gestos, el clasificador neuronal competitivo (CNC). Los gestos a reconocer son movimientos de la mano, con invariancia a la velocidad, la rotación, la escala y la traslación. La captura de la información referida a los gestos para generar la base de datos se realizó mediante el dispositivo Kinect y su SDK correspondiente, que reconoce las partes del cuerpo y determina sus posiciones en tiempo real. Los clasificadores se entrenaron con dichos datos para poder determinar si una secuencia de posiciones de la mano es un gesto. Se implementó una librería de clasificadores con los métodos mencionados anteriormente, junto con las transformaciones para llevar una secuencia de posiciones a una representación adecuada para el reconocimiento. Se realizaron experimentos con la base de datos LNHG, compuesta de gestos que representan dígitos y letras, y con un base de datos de otro autor con gestos típicos de interacción, obteniendo resultados satisfactorios.Facultad de Informátic

    Medidas de invarianza y equivarianza a transformaciones en redes neuronales convolucionales : Aplicaciones al reconocimiento de formas de mano

    Get PDF
    Las Redes Neuronales son los modelos de aprendizaje automático con mejor desempeño en la actualidad en una gran variedad de problemas. Son modelos generales y aproximadores universales. Con algoritmos de optimización basados en descenso de gradiente, pueden optimizar miles o millones de parámetros en base a una función de error. Se distinguen de otros modelos en que no requieren un diseño manual de características de los datos para funcionar; las características se aprenden automáticamente mediante el proceso de optimización, también llamado entrenamiento. Su diseño se organiza en capas que determinan su arquitectura. En los últimos años, se ha conseguido entrenar Redes Neuronales con múltiples capas mediante un conjunto de técnicas que suelen denominarse Aprendizaje Profundo (Deep Learning). En particular, las Redes Convolucionales, es decir, Redes Neuronales que utilizan capas convolucionales, son el estado del arte en la mayoría de los problemas de visión por computadora, incluyendo la clasificación de imágenes. Las capas convolucionales permiten aplicar convoluciones con filtros aprendidos para un mejor desempeño y eficiencia. Muchos de los problemas para los cuales las Redes Convolucionales son el estado del arte requieren que los modelos se comporten de cierta manera ante transformaciones de su entrada. Existen dos propiedades fundamentales que capturan dicho requerimiento; la invarianza y la equivarianza. La invarianza nos dice que la salida del modelo no es afectado por las transformaciones. La equivarianza permite que la salida sea afectada, pero de una manera controlada y útil. Si bien los modelos tradicionales de Redes Convolucionales son equivariantes a la traslación por diseño, no son ni invariantes a dicha transformación ni equivariantes a otras en los escenarios usuales de entrenamiento y uso. Existen dos opciones principales para otorgar invarianza o equivarianza a un modelo de red neuronal. La tradicional ha sido modificar el modelo para dotarlo de esas propiedades. La otra opción es entrenarlo con aumentación de datos utilizando como transformaciones el mismo conjunto al que se desea la invarianza o equivarianza. Dotar con invarianza o equivarianza a los modelos tiene utilidades en varios dominios, como la clasificación de imágenes de galaxias, imágenes de microscopios o formas de mano. En particular, el reconocimiento de formas de mano en imágenes es una de las etapas más importantes de los sistemas de reconocimiento de lenguas de señas o gestos mediante imágenes o video. En muchos casos, la rotación, traslación o escalado de la mano en la imagen no afectan a su forma, y por ende se requiere dotar de invarianza a la red para mejorar el desempeño del sistema. No obstante, no está claro cómo los modelos adquieren estas propiedades, tanto al usar aumentación de datos como al modificar el modelo. Tampoco está claro como las modificaciones de modelos afectan la eficiencia y el poder de representación de los mismos. Más aún, en los modelos tradicionales tampoco es conocido cómo se adquieren dichas propiedades con aumentación de datos, así como cuál es la mejor estrategia para aumentar los datos con este fin. En el primer aporte de esta tesis, analizamos diversas estrategias para obtener invarianza o equivarianza en modelos de clasificación de imágenes con redes neuronales. Comparamos los modelos tradicionales AllConvolutional y LeNet, y los modelos especializados Group CNN y Spatial Tansformer Networks para determinar su desempeño. Realizamos experimentos con varios conjuntos de datos conocidos (MNIST y CIFAR10) utilizando aumentación de datos. Los resultados arrojan evidencia en favor de la hipótesis de que aún con ingeniosas modificaciones de las redes convolucionales, la aumentación de datos sigue siendo necesaria para obtener un desempeño similar al de los modelos no invariantes. Más aún, en varios casos la aumentación de datos por si sola puede proveer un desempeño similar al de los modelos especializados, siendo al mismo tiempo más simples de entrenar y comprender. Además, analizamos cómo re-entrenar una red previamente generada para convertirla en invariante, y encontramos que el entrenamiento de las últimas capas permite convertir un modelo no invariante en uno que si lo sea con un bajo costo computacional y leve pérdida de desempeño. Si bien estos mecanismos permiten imbuir de invarianza o equivarianza una red, la forma en que la misma codifica o representa dichas propiedades no están claros. La comprensión de la invarianza o equivarianza de una red o cualquier sistema puede ayudar a mejorar su desempeño y robustez. Estas propiedades pueden estimarse midiendo los cambios en las salidas de la red en base a las transformaciones realizadas a su entrada. Las metodologías actuales de evaluación y comprensión de la invarianza y equivarianza se enfocan solamente en las capas de salida de la red. No obstante, para poder comprender como se codifican, el análisis debe realizarse en base a toda la red, es decir, considerando las representaciones intermedias. En el segundo y principal aporte de esta tesis, por ende, desarrollamos métricas para medir la invarianza y equivarianza de las redes. Dichas métricas permiten cuantificar estas propiedades de forma empírica no solo en la salida de la red sino también en sus representaciones internas. De esta forma, podemos visualizar y cuantificar que tan invariante o equivariante es una red, ya sea en su totalidad, por capas, o por activaciones individuales. Las métricas son aplicables a cualquier red neuronal, sin importar su diseño o arquitectura, así como a cualquier conjunto de transformaciones. Realizamos una implementación de las métricas en una librería de código abierto, con soporte para la librería tensorial PyTorch. Las métricas fueron validadas para verificar su correcto funcionamiento y utilidad. Además, estudiamos sus propiedades, como la variabilidad ante los conjuntos de datos, transformaciones, inicialización de los pesos, y otras. Utilizando las métricas, también se evaluamos modelos de redes neuronales convolucionales conocidos para caracterizarlos en términos de su invarianza o equivarianza. Asimismo, caracterizamos diversos tipos de capas como las de Batch Normalization, Max Pooling, diversas funciones de activación, capas convolucionales con distintos tamaños de filtro, y otros. Los resultados otorgan una primera mirada de los modelos de redes en términos de estas propiedades, y esperamos que puedan fomentar un mejora en ese área. Por último, hacemos un tercer aporte al reconocimiento automático de lengua señas basado en video. El reconocimiento de señas es un subárea del reconocimiento de gestos o acciones. Tiene como objetivo traducir al lenguaje escrito un video en donde una persona se comunica mediante lengua de señas. Desde la aparición de tecnologías de captura de video digital existen intentos de reconocer gestos y señas con diferentes fines. Es un problema multidisciplinar complejo y no resuelto aún de forma completa. Un paso fundamental en el reconocimiento de señas es la clasificación de formas de mano, ya que estas conllevan una gran parte de la información de una seña. El motivante principal de las interrogantes planteadas sobre modelos de invarianza y equivarianza surge a partir del estudio de técnicas de clasificación de formas de mano. Si bien las redes convolucionales proveen un desempeño ejemplar en varios dominios, su desempeño para la clasificación de formas de mano no ha sido evaluado rigurosamente. Por ende evaluamos diversos modelos de redes neuronales para determinar su aplicabilidad en este dominio. Utilizando los conjuntos de datos de formas de mano LSA16 y RWTH-PHOENIX-Weather, realizamos experimentos con los modelos LeNet, VGG16D, ResNet, Inception y AllConvolutional para determinar su eficacia como clasificadores en este dominio. Los resultados indican que todos los modelos tienen un desempeño razonable en ambos conjuntos de datos, con resultados iguales o mejores que otros modelos diseñados específicamente para la tarea. No obstante, el modelo VGG16D obtuvo los mejores resultados. Incluimos también evaluaciones de transferencia de aprendizaje, con y sin re-entrenamiento de las capas; en ambos casos dichas estrategias obtuvieron un desempeño peor que los modelos entrenados sin transferencia de aprendizaje. Además, realizamos un estudio de varias estrategias de pre-procesamiento de las imágenes, encontrando que la segmentación de las manos del fondo otorga un incremento de desempeño significativo. Por último, también desarrollamos una librería de código abierto para facilitar el acceso y preprocesamiento de bases de datos de formas de manos.Facultad de Informátic

    Resumen de tesis: Medidas de invarianza y equivarianza a transformaciones en redes neuronales convolucionales. Aplicaciones al reconocimiento de formas de mano

    Get PDF
    Nuestro objetivo general en esta tesis es contribuir al entendimiento y mejora de la equivarianza de los modelos de redes neuronales, en particular aplicados a la clasificación de formas de mano para la lengua de seña y otros tipos de gestos mediante modelos de redes convolucionales.Eje: Tesis doctoral.Red de Universidades con Carreras en Informátic
    • …
    corecore